#DeepSeek AI
中國 DeepSeek AI 預測:XRP、Solana、Dogecoin 到2025年底的目標價會到哪?
被稱為「ChatGPT 殺手」的中國頭部 AI——DeepSeek,發布了對 XRP、Solana(SOL) 和 Dogecoin(DOGE) 的 12 月價格展望,並提醒交易者:這三者本月都可能迎來更高的波動率,行情容易出現急拉急砸。隨著加密市場即將結束“最慘月份之一”,臨近聖誕節,整體盤面正在出現修復反彈。但從年度表現來看,2025 年對比特幣並不友善:截至撰稿時,BTC 年內(YTD)跌幅已超過 7%,年初價格接近 9.9 萬美元,如今大概率會以低於該水平的價格收官。即便如此,放大週期來看,市場的大結構仍偏向正面。分析師仍認為 XRP、SOL、DOGE 這類相對「能活下來」的強勢山寨/優質山寨,長期仍具備表現空間。在市場情緒和流動性逐步穩定後,各項目可望重新獲得向上行動能-以下是 DeepSeek AI 對其趨勢的預期推演。XRP(XRP):DeepSeek AI 認為要麼“全面崩盤”,要麼衝到 5 美元DeepSeek AI 的偏空劇本顯示:如果市場情緒持續疲軟、資金風險偏好不回升,Ripple 的 XRP 可能會從當前約 2.07 美元 出現深度回撤/瀑布式下跌,跌幅高達 91%,一路砸到接近 1 美元,並可能在 2026 年 前後維持在該低位附近。來源: Deepseek從 2025 年 XRP 的整體價格走勢來看,多頭劇本反而更佔優。不少人把 Ripple 稱為「年度進步最大幣」。因為在 2025 年 8 月,與 SEC 的訴訟最終塵埃落定,帶來了徹底的監管清晰度,進而解鎖了 11 億美元+ 的機構資金淨流入,同時 RLUSD 穩定幣 也順利上線落地。在這些利好加持下,XRP 一直守在 2 美元上方,並且還有 現貨 XRP ETF的持續資金流入提供支撐,市場信心被進一步抬升。部分分析師因此認為,XRP 接下來有機會向 3 美元 發起衝擊。來源: XRPUSD / TradingView只要 XRP 能穩守 2.00 美元上方,刷新 歷史新高(ATH) 的可能性仍然存在。圖表上曾有一次價格跌破 2 美元,當時對多頭來說就很不妙,盤面明顯轉弱。目前的關鍵突破門檻/頸線位在 2.70 美元:這裡先前是非常強的支撐位,但最近已經發生支撐轉阻力(S/R flip)。如果價格能重新收復並站穩該區域,就可能確認突破,打開上行空間,目標指向 3.70 美元 左右,對應約 80% 的上行幅度。Solana(SOL):DeepSeek AI 預測或將出現 700% 等級的突破Solana 依舊被視為本輪週期的“週期之王/強勢主線”,過去 7 天 在市場波動持續的情況下仍保持強勢,漲幅超過 2%,體現出較強的抗跌與相對強勢。DeepSeek AI 認為,Solana 可能會在 可擴展的 C 端應用 賽道進一步“加速開掛”,隨著生態持續擴張、機構採用度提升,有機會在 2026 年初 前後打出一波約 700% 級別的主升浪/突破行情。如果多頭敘事走不出來,空頭劇本其實也不會比當下更慘太多:DeepSeek 預期 SOL 可能回撤到 100 美元 附近的強支撐/心理關口,作為下一道防線。此外,光是 Solana ETF 這條線就可能為 SOL 打開通往 400 美元 的想像空間——因為目前已經吸引到明顯的機構關注,並且連續多日出現淨流入,資金面表現偏強。來源: SOLUSD / TradingView不過,SOL 眼下有個關鍵任務:必須突破並站穩 144 美元 這道強壓/套牢密集區。如果衝不過去,SOL 可能會在聖誕節前先走一波回踩/下探,然後再擇機二次衝關。要維持多頭劇本不崩,價格必須守住圖表標示的那段需求區/承接帶。一旦該區域失守,DeepSeek 預測的 100 美元 回撤目標就可能被觸發。DeepSeek:狗狗幣(DOGE)或再次衝擊 1 美元「Meme 幣市場已經涼了。」這是 CryptoQuant CEO Ki Young Ju 最近的表態,也不難理解他為什麼這麼說。從山寨盤裡 meme 幣的市佔比來看,已經快跌到新的歷史低點(ATL)。這基本說明了:曾經最能帶動散戶熱情的主線之一,現在熱度和資金都明顯退潮了——可憐的 meme 幣。來源: CryptoQuant儘管如此,DeepSeek 仍認為 meme 板塊存在修復反彈的可能性,並指出:如果 DOGE 未來能在像 X(原 Twitter) 這類大平台上被整合為支付手段,很可能會重新點燃市場情緒,觸發一波拋物線式拉升。但就目前來看,DeepSeek 更偏向空頭劇本:一旦市場風險偏好下滑、資金從 meme 敘事資產撤離,DOGE 可能出現一波深度回撤/大幅回調,甚至有概率回到 0.08 美元 附近。DOGE 現貨 ETF 的成交額已降到 14.2 萬美元,創下這些產品上線以來的最低水準。根據 SoSoValue 數據,成交量自 11 月下旬 起明顯走弱——當時日成交額還曾多次衝到 323 萬美元+。不過,DOGE 目前仍算有點抗跌:價格一直守在 0.14 美元上方。如果後續能突破並收盤站上 0.18–0.20 美元 這一段強阻力/套牢區,就能進一步確認強勢,打開上行空間,目標區間有望看向 0.24–0.26 美元。來源: DOGEUSD / TradingViewMaxi Doge:高風險高報酬的 Meme 幣押注,交易員正緊盯不放儘管 DeepSeek 等 AI 模型警告 meme 幣市場仍在承壓,但不少交易員已經在為下一輪板塊輪動提前埋伏。在這輪「重置期/洗牌期」裡,一個正在獲得關注的項目是 Maxi Doge——一個受 Dogecoin 啟發的新 meme 代幣,主打純投機敘事、高槓桿文化 和社區動能驅動。Maxi Doge 完全吃透 meme 能量:核心形像是一隻「練成大塊頭、開高槓桿的健身房老哥」Doge,象徵 risk-on 的交易心態。這裡沒有硬凹的「實用性」故事,專案定位很明確——面向懂週期、想在 meme 幣重新回到主流視野前就先拿到早期敞口的交易者。即便在市場相對冷清的階段上線,Maxi Doge 也已經募資超過 429 萬美元,說明在整體 meme 情緒偏弱的背景下,仍然出現了早期需求。代幣分配同樣是賣點之一:大約 40% 的供應量直接給到公開預售,且沒有私募/VC 輪,從而降低了「內幕盤/機構砸盤」帶來的潛在拋壓風險。此外,專案還上線了質押,為早期參與者提供最高約 72% 的年化收益(APY),讓 MAXI 持有人在等待下一波投機浪潮期間也能“邊拿幣邊吃利息”,而不是在震盪整理裡乾等。透過關注 Maxi Doge 官方 X(推特) 和 Telegram 電報群/頻道,隨時取得專案最新動態與公告。如何購買Maxi Doge($MAXI)?按此瀏覽原文免責聲明加密貨幣投資風險高,價格波動大,可能導致資金損失。本文僅供參考,不構成投資建議。請自行研究(DYOR)並謹慎決策。
從DeepSeek到豆包手機助手:中國AI下一程何去何從?
在中國AI發展史上,2025年註定會是里程碑式的一年。1月27日,DeepSeek憑藉發佈僅一周的開源推理大模型DeepSeek-R1,在蘋果應用程式商店中國區和美國區的免費榜上雙雙獲得第一,震驚世界。儘管隨著千問、豆包等大模型的崛起,DeepSeek在很多排名中不再名列前茅,但其貢獻將永載史冊。12月5日,張亞勤教授在人文清華講壇演講時說,DeepSeek在演算法、技術、系統架構上都有創新,它用1%的算力就可以達到和美國前沿大模型相似的能力。“DeepSeek出來之後,咱們和美國的差距可能就從之前的2~3年縮短到2~3個月,而且在有些應用方面,我們可能做得更好”。中國網際網路從1995年左右起步,先後經歷了PC網際網路、移動網際網路和物聯網時代。張亞勤認為,現在進入了智能體網際網路(Internet of Agents)的新時代。所謂智能體(Agent),就是具備自主智能的系統——你只需要給它設定一個目標,它就能自主規劃任務、不斷迭代,甚至自我試錯,最終達成目標。這非常像人類的行為:有個目標,自己就會去規劃路徑,依靠各種記憶和判斷去實現。未來已來。12月1日,字節跳動豆包團隊發佈了“豆包手機助手技術預覽版”,通過和中興通訊努比亞手機合作,展示了一系列驚豔表現——豆包手機助手根據使用者指令,可以在多款App應用之間自動跳轉,完成查票訂票、商品多平台比價下單、定製出行攻略、批次下載檔案等任務,完全自動化執行。智能體網際網路真的來了?毫無疑問,是的。智能體網際網路的“Aha moment”手機助手本身並非新生事物。2011年蘋果就發佈了siri,使用者可通過語音指令完成資訊查詢、電話撥打、消息傳送、裝置尋找等功能。但這樣的助手只能呼叫單個App應用,比如你要它“打開微信”它就給你打開微信。而當你提出一些跨應用、多步驟的複雜指令,如“對比一下淘寶閃購、美團、京東同款麥辣雞翅的價格,選個最低價,下單到指定地址,然後截圖發給指定聯絡人”,又如“下周我要出差,先去北京再去廣州,幫我訂一下機票和酒店,最後生成一張清單”,等等,它就一籌莫展了。這樣的多步驟複雜任務,恰好是豆包手機助手的用武之地。你只要說一聲,它就會在你手機所有的購物App裡搜尋同款商品,對比價格和規格,自動領券,選擇最低價,最後通知你“接管操作完成支付下單”;當你準備出差,它會按你的吩咐,在公司辦公軟體上向經理提交出差申請,然後訂好機票酒店;當你想給女兒推薦幾個禮物放進購物車時,如果你設定開啟的記憶中已儲存有女兒的年齡、興趣等資訊,它可直接查詢符合女兒年齡、偏好的方案,無須你再逐一交代細節……這些前所未有的新體驗,讓豆包手機助手初出茅廬就成為智能體網際網路的一個“Aha moment”,也為2025年的中國AI發展貢獻了一部“收官之作”。一石激起千層浪然而,和年初DeepSeek發佈時贏得的普遍都是掌聲相比,豆包手機助手發佈後,則是一石激起千層浪。有人盛讚,AI操作手機、AI助手一定會遍地開花,我們的生活也會完全離不開它,將來的人們會記住這歷史性的一天;有人評價,豆包和中興通訊做的這件事,是通過跟系統、跟硬體廠深度綁在一起,讓豆包獲得系統級權限,可以橫跨所有App看通知、讀頁面、點按鈕,從一個App升級成手機系統內常駐的大腦,成為作業系統的一部分而不是普通的第三方軟體,這是AI時代的手機新入口;有人擔心,AI手機助手依賴高等級的系統權限,能在執行使用者指令的操作過程中讀取到螢幕內容——包括銀行卡資訊和聊天記錄,會帶來安全隱患;也有一些國民級應用App、金融機構App迅速截停了豆包手機助手,使用者在手機上無法呼叫,或遭遇異常退出、無法再次登錄。更深層次的討論也開始了——若使用者習慣將操作完全交由AI助手代理,各種App都將被“管道化”,以流量分發為核心的網際網路商業模式將會被顛覆;而對手機廠商來說,將從“硬體製造商”變為“AI服務分發商”,其賣點不再是硬體參數的堆積,而是能否接入最強AI能力,提供最豐富和高效的場景服務。豆包手機助手到底是什麼?其實,它是在豆包App的基礎上,和手機廠商在作業系統層面合作的AI助手軟體。目前還只有一款和中興通訊合作的工程樣機,也只面向開發者和科技愛好者少量發售。在官方視訊的結尾,豆包手機助手特別提示,“儘管演示內容均為真實錄製,但受限於大模型技術的不確定性,相關場景無法保證百分百復現。當前產品實際可用性與團隊預期仍有差距,未來仍將持續迭代最佳化”。可見,它還是剛剛起步。但沒想到,發佈當日,中興通訊A股漲停,在行業和社會迅速引起巨大波瀾。在被一些App截停後,豆包手機助手發佈了《關於微信登錄異常的情況》《關於調整AI操作手機能力的說明》等公告,澄清了所謂“未經授權獲取系統權限”的謠言,指出豆包手機助手在努比亞手機上擁有系統級的INJECT_EVENTS權限,所以其相關產品才能跨屏、跨應用模擬點選事件,完成使用者操作手機的任務需求,它也不會代替使用者進行相關授權和敏感操作。關於使用者隱私,豆包手機助手表示,不會在雲端儲存任何使用者螢幕內容。“當使用者給助手指令,要求操作手機時,助手確實需要讀取螢幕,否則無法完成使用者任務,但螢幕和操作過程都不會在伺服器端留下儲存,且所有的相關內容也都不會進入模型訓練,確保使用者隱私安全。”豆包助手再次強調,此次發佈的是“技術預覽版”,是面向行業、AI技術愛好者的探索產品,提示普通消費者謹慎選擇。豆包助手還表示,計畫在接下來的一段時間,在部分場景對AI操作手機的能力做一些規範化調整,如限制刷分、刷激勵的使用場景,進一步限制金融類應用的使用,限制部分遊戲類使用場景等。顯然,豆包手機助手的社會影響大大超出了團隊預想,因此團隊開始採取一種“退”的姿態。退一步,進行調整,並努力和App們以及手機廠商達成共識,找到合作模式。一場技術上的顛覆式創新,開始步入社會化共識與服務規則的形成期,以及新舊利益如何分配的磨合期。但無論如何,因為豆包手機助手的發佈,中國的網際網路服務掀開了新的一頁,即從App主導到智能體驅動。這一頁既已掀開,就不可能再倒回去。為什麼是豆包?豆包手機助手和中興通訊合作的AI手機,顯示出“大模型+手機廠商”的清晰趨勢。在國內,華為、vivo、小米、OPPO、榮耀等手機廠商都在佈局AI智能體賽道,都有自己的AI助手,都在個性化互動、跨應用執行方面探索。大模型初創公司智譜去年10月也曾官宣推出了端側AI智能體,可以訂外賣、訂票、回覆微信,智譜還與三星在AI手機領域達成戰略合作;在國際上,蘋果去年6月發佈了Apple Intelligence,定位為系統級AI助手,但直到iPhone 17系列仍未完全落地。GoogleGemini也在與三星深度合作,強化其語音助手Bixby。大家都在做AI手機助手,為何唯有豆包一鳴驚人,真正讓使用者眼前一亮?單從技術實現路徑看,豆包助手和別的助手採用的都是圖形使用者介面智能體(GUI Agent)技術。該技術通過多模態大模型,即時解析手機螢幕截圖,識別出按鈕、文字、圖示等UI元素,然後呼叫作業系統提供的服務,模擬人的手指動作。只要人在螢幕上可以手動完成的操作,從理論上說,GUI Agent都能代勞。在過去,使用者必須通過手動方式在不同App間切換,才能完成複雜任務。這是因為,如果使用者想讓AI與App互動,App開發者必須主動開放資料和功能介面,而基於安全、商業利益等考慮,App們並不會開放。GUI Agent的邏輯不是請求App們的許可,而是直接模仿人的點選、滑動、輸入等動作,跨應用完成操作。當然,這裡有一個前提,就是與手機作業系統在系統層面深度整合,獲得系統級權限來呼叫各種App。那麼,是不是有了GUI Agent,再加上擁有系統級權限、避免了APP的“玻璃牆”限制,就能做好AI手機助手呢?也不是。否則,手機廠商已經先發先至了。其實,在手機助手跨應用自動執行任務的背後,涉及到多種技術能力,如通過自然語言精準理解使用者的複雜、多步驟指令,將使用者需求拆解成多個子任務,知道呼叫什麼App去執行什麼任務,以及在自動完成操作後根據結果進行反饋調整、持續改善。並不只是獲得系統級權限去呼叫App那麼簡單。AI手機助手的本質,是基於大模型技術,通過模擬人類點選和圖形處理實現智能互動。其關鍵在於預訓練模型的研發,以及在預訓練、後訓練和業務理解這三個環節上是否有突破,有創新。在中國網際網路公司中,字節跳動是對AI技術投入最大、時間最久的之一。除了眾所周知的推薦技術,在大模型之前,字節跳動也在量子化學、AI蛋白質設計等領域有諸多投入。為了發展大模型業務,字節跳動單獨設定了“豆包股”長期激勵,鼓勵內部創新,鼓勵開展有技術高度的創新,以建立壁壘。雖然字節跳動的大模型業務不是全球最早,但轉型迅速,在基礎設施如萬卡叢集訓練等方面投入巨大,且穩定性很好,為技術實現奠定了基礎。豆包手機助手一出生就與眾不同,極大刷新了使用者體驗,和豆包大模型在視覺理解、推理、GUI(圖形介面)識別等方面均處於國際第一梯隊是分不開的。在中國大模型公司中,豆包對“蒸餾”的限制最嚴格,這也避免了依賴他人的模型導致“屋下架屋”、效果受限等問題。“通過模擬人類點選進行圖形處理”,這個概念早就有人提出,並不新鮮,其他手機廠商和App廠商也都在做,但從豆包手機助手的實測和使用看,字節跳動是國內首個從技術能力上能把這一技術真正做到可用程度的企業。當有些廠商還在為“如何讓助手生成更流暢的文字”努力時,豆包手機助手已經能自主絲滑地完成複雜操作,這就是技術優勢所拉開的代際差距。所以,豆包手機助手的超常表現,歸根結底在於技術領域的硬核創新。這和之前DeepSeek在混合專家模型(MoE)架構和多頭潛在注意力機制(MLA)等方面的自主創新頗為相似,都是先站上技術的高地,接著才有出眾的產品。AI手機助手的下一步儘管豆包手機助手展現出了新互動模式的巨大潛力,但它要真正進入千家萬戶,還有很長路要走。除了自身的產品迭代最佳化,以及讓使用者更加放心(比如爭取在不久的將來,在本地端側模型上實現和雲端同樣的效果),它還需要和行業各方有更充分溝通,以共建更清晰、可預期的規則。就眼前遭遇的被一些App封禁的問題,豆包手機助手需要將心比心,和它們坦誠協商,以解決在技術預覽版手機上的使用限制問題。長期而言,則要努力探索合作與分享的具體機制安排。豆包手機助手已明確“無自研手機計畫”,而是希望通過生態合作模式,嵌入不同品牌的手機機型。這是一種開放的態度,將有利於合作的達成。有專家預測,在智能體網際網路時代,有可能形成“使用者付費+廠商分成”的模式:使用者為智能助手的便捷服務支付少量費用,豆包與合作的App廠商按一定比例分配收益;對於免費的App應用,則可通過流量導流、資料共享等方式實現共贏。在這個過程中,最難跨越的關隘,還是現有App生態的流量與利益格局。同時,手機大廠是否願意合作,以何種方式合作,也存在大量博弈空間。可以設想的是,不管豆包手機助手有多麼強大,未來都不可能只有一個AI手機助手。既然是大勢所趨,必然會引來多個參與者。就像電商App,有淘寶,也有拼多多,有京東,有抖音電商,等等。當然,因為手機助手更像“大腦”,使用者在使用、比較之後,大機率會選擇某一個可信賴的助手,長期使用,越用越習慣,而不太可能像電商App一樣,同時使用幾個。騰訊總裁劉熾平在2025Q3財報電話會上表態,微信最終將推出自研AI智能體,讓使用者在微信生態內即可利用AI完成多項任務。當豆包手機助手點亮了一盞燈,一定會帶動和加速更多盞燈亮起來。這對於廣大使用者一定是好事。就此而言,無論怎樣的超級App,都應該避免簡單基於商業競爭的考量,用“一刀切”的方式否定使用者合理使用AI的權利。因為當它們將來要推出手機助手的時候,也會面臨和今天豆包類似的問題。無論最終模式如何,豆包手機助手的創新都值得鼓勵。App時代的“多應用切換”是使用者的痛點,誰能更好地解決這個痛點,誰就會得到使用者的認同。使用者也將成為這場智能化變革的最大受益者。從生成式AI到智能體AI,從移動網際網路到智能體網際網路,從App林立到AI手機助手統籌,豆包手機助手用一個個具象化的場景,讓使用者感受到大模型等技術帶來的便利。它雖然還沒有正式發佈,卻已讓人們看到,智能體AI將徹底改變我們與手機的互動方式,讓科技真正服務於生活本身。人工智慧時代的新黎明正在降臨。不管還有多少挑戰和難題,新質生產力都將穿越,也必將穿越。 (秦朔朋友圈)
DeepSeek 與 Google 的暗戰:誰會最先找到通往 AGI 的鑰匙?
自從 2022 年 ChatGPT 3.5 橫空出世,讓世人領略到 AI 的非凡魅力;再到 2024 年底 DeepSeek 驚豔登場,給國人帶來了巨大的驚喜與自信。如今,各類大模型(LLM)及 AI 應用已經深刻地改變了我們的生活。AI 每天都在增強功能。昨天做不到的事,今天已經能做;前天做不好的題,今天已經可以輕鬆解決。我們彷彿回到了蒸汽機投入實用後的那段時間——新技術、新發明以肉眼可見的速度狂飆突進。然而,在這波 AI 浪潮的狂歡背後,科技界仍存爭議:LLM 真的是通往 AGI(通用人工智慧)的正確方向嗎? 或者說,僅靠當前的 LLM 就足夠了嗎?答案其實很清晰:不夠。Transformer 是一次偉大的突破,但要讓機器真正“理解世界”,我們仍需要更多類似 Transformer 等級的全新核心技術。凍結的知識快照不是智能我們知道,當前大模型的訓練方法,本質是讓 Transformer 在大量文字裡尋找“詞與詞的關係”,並基於這些統計關係預測下一個詞。訓練完成後,所有知識都被壓縮排最終的權重檔案裡,像一張凝固的“知識快照”。 但之後它不會自動學習新知識,除非重新訓練或微調。明天產生的新知識無法自動融入,換言之,LLM 本身沒有即時的學習能力。從上面你很快能就發現當前基於LLM的AI的兩個“死穴”:其一,LLM只是一個機率模型,它知道“E=mc²”後面大機率跟著“愛因斯坦”,也知道怎麼用這句話造句,但它不知道這公式是怎麼推匯出來的,也不知道如果光速改變了世界會怎樣。它學到的是知識的“投影”(文字),而不是知識的“本體”(邏輯與因果)。其二,它的知識是靜態的。正因為它沒有一個知識的生產過程,所以它不知道這些知識是如何產生的,為什麼會形成這個知識,這些知識為什麼對,為什麼錯。正如X上有某位大佬所言:“當前 AI 水平離真正的 AGI 還差好幾個 Transformer 等級的創新。” 但遺憾的是,現在還沒有可以取代Transformer的新架構。在這一點上,中美其實“站在同一片荒原上”,未來怎麼走,大家都在摸索。理解知識的積累過程,是智能的前提嗎?回想一下人類的學習方式:從小到大,知識是一點一滴積累的,對同一個知識點的理解也是層層遞進的。相比之下,LLM 生成即“凍結”,缺失了進化的過程,所以它“知道”,但它不“理解”。那麼,將知識的積累過程保留下來,會不會是通往 AGI 的一個方向?如果 AI 能復現人類對某個現象的認識過程,是否就能理解其背後的原理,從而舉一反三?至少,可以將這個認識過程當作一種“元模式”記錄下來,在處理新問題時按部就班地套用。當然,這個觀點也存在爭議。因為許多科學突破是“斷層式”的——先是天才的“靈光一閃”,後人再通過邏輯去填補證據。不過,從人類的普適經驗來看,模擬知識的積累過程,肯定有助於 AI 達到人類智能的平均水準。我們不指望 AI 頓悟成愛因斯坦,但達到專家的水平是完全可期的。這個過程可以從兩個角度來分析一是知識的層級性,高階知識依賴並建立在前導知識(基礎概念、技能)之上。比如說,一個人學習流體力學前,需掌握微積分與線性代數。二是學習的漸進性,對具體知識的理解和記憶,是一個從模糊、具體到清晰、抽象的動態過程。對於個人來說,對新概念的掌握,會從最初的生硬記憶,逐漸內化為可靈活運用的直覺。Google的思考:結構化與記憶針對第一個維度(層級性),Google 試圖將模型的知識結構化為不同時間尺度、相互巢狀的層級,提出了“巢狀學習”(Nested Learning)與記憶框架。(參見論文:https://abehrouz.github.io/files/NL.pdf)。“巢狀學習”的核心是將一個複雜的AI模型,視為一系列相互巢狀的最佳化問題。簡單來說,模型的不同部分可以像人的不同記憶一樣,以不同的“速度”學習和更新。簡單舉例,一般的LLM訓練,對於一個文字來說,可以理解成一個平面,從上而下,流式分佈。然後訓練過程相當於找出每個字之間的關係機率,因為處理窗口的關係,如果算到了後面的內容,往往與前面的文字關係就小了,計算時用的權重也就低了。如同一篇小說,即使作者費盡心機在結尾時回應了開頭處的一個梗,填了開始的一個坑,對於AI來說,也是拋媚眼給瞎子看。AI早就忘記了。而Google的巢狀學習,則是對同一篇文章,除正常的訓練方式外,還對文章先在不同的層次上進行預處理。比如先做一個文章梗概,先過一遍文章,把所有作者預埋的“坑”提取出來……,這樣一篇文字就變成了n篇不同維度文字,然後在訓練時,這些文字都參與訓練,可以平行處理,只是訓練參數和訓練方法不同。能根據性質選擇不同精度和速度的計算,而且訓練出的成果是可以疊加的,不再是單一固定的權重檔案。上面的圖就是一個例子,左邊是普通的深度學習訓練過程,而右邊則是巢狀學習的例子,你能看出對於同一個內容,根據進行多次訓練,只是廣度和精度各不相同。此外,Google 的 ReasoningBank 記憶框架(相關論文:https://arxiv.org/abs/2509.25140 )則更進一步。它的思路是讓AI智能體從以往的成功與失敗經驗中,主動提煉出結構化的“記憶項”。每個“記憶項”包含策略標題、描述和推理內容,本質上是對低級經驗的抽象總結。當面對新任務時,AI會檢索並應用這些抽象原則來指導行動,這模擬了人類專家運用已有知識框架去解決新問題的過程。DeepSeek的嘗試:多維感知與自驗證推理針對第二個維度(漸進性),DeepSeek 在感知與推理兩個層面都展現了對人類思維模式的深度模擬。首先在視覺感知層面,以 DeepSeek-OCR 為例,他們採用了一種獨特的“多解析度訓練”思路:不僅僅是對圖像進行簡單的向量化,而是試圖模擬人類的視覺認知過程——即 “從模糊到清晰” 的動態掃描。對同一張圖片(場景),模型會同時學習其低解析度的宏觀輪廓與高解析度的微觀細節(相關技術細節可參看此前的公眾號文章)。這種策略暗合了人類大腦處理視覺資訊的生物學模式:先建立全域印象,再填充局部細節。不僅在感知上發力,DeepSeek 更試圖在推理層面重現人類的“反思”能力。DeepSeek 不僅在基礎大模型上發力,向各個專家模型演進(如 DeepSeekMath-V2),更在某些領域嘗試模擬人類的“記憶狀態”。在 2025 年 11 月 27 日剛剛發佈的 DeepSeekMath-V2(論文:https://arxiv.org/pdf/2511.22570 )中,DeepSeek 引入了突破性的 “自驗證”(Self-Verification) 機制。這相當於讓 AI 進化出了“自我監考”的能力。傳統的模型像是一個只顧填答題卡的考生,只在乎最終答案是否命中;而 DeepSeekMath-V2 則像是一個嚴格的老師,它不僅檢查答案的對錯,更會一步步審視 解題過程(Process) 的邏輯鏈條。通過這種方式,模型不再是“蒙”對了一個答案,而是真正確信自己“理解”了這道題。這種從“結果導向”向“過程導向”的轉變,是 AI 邁向深度邏輯推理的關鍵一步。DeepSeek 的“自驗證”機制構成了一個自我完善的智能閉環:它不僅能評估解題過程,更能主動生成推理步驟並對其驗證。這模仿了人類的元認知與自我學習能力。古人倡導“吾日三省吾身”,而 AI 則可實現瞬時、高頻的自我審視與迭代最佳化。如下圖(論文中的附圖)所示,隨著驗證次數(最高達7次)的增加,模型解決問題的能力顯著提升,充分體現了通過“反覆自學”實現能力進化的潛力。雖然上述分別列舉了兩家公司的例子,但在技術演進的洪流中,它們並非孤立存在。Google 的巢狀學習涉及不同清晰度資料的處理,而 DeepSeek 的多專家系統(MoE)及多層次資料訓練,本質上也是在對知識進行結構化拆解。結尾:AGI的未來方向,也許正在悄悄顯現從 Google 到 DeepSeek,我們正在看到一個趨勢越來越明確:真正的智能,不是更大的模型,而是更“結構化”的學習過程。未來的 AI,可能會具備:能分層理解知識結構的能力能保持多時間尺度記憶的能力能自主總結“經驗規則”的能力能在模糊與清晰之間漸進切換的能力能記錄“知識的進化史”而不是只記錄結論這些能力加在一起,不是“下一代更大的 Transformer”,而是:一種能夠像人一樣“成長”的架構。我們或許距離 AGI 仍有數個重要突破,但路徑正在變得越來越清晰:不是簡單堆算力、堆資料,而是讓模型獲得“理解知識如何生成”的能力。或許,真正的智能不是一夜之間的奇蹟,而是一次又一次讓機器“重走人類認知之路”的漫長積累。而現在,我們正在走在這條路的最前面。 (亍雲旁觀)
“大交易”:一場遲到的美國AI戰略自救
前不久,前白宮人工智慧特別顧問本·布坎南(Ben Buchanan)在《外交事務》雜誌上拋出了他的“大交易”設想,華盛頓的政策圈似乎又找到了一個新的敘事框架。這位在2021至2025年間負責協調拜登政府AI政策的核心人物,試圖為美國AI發展勾勒一幅宏大藍圖:科技行業必須要與政府達成戰略協議,前者獲得能源基礎設施、人才管道和國家安全保護,後者則將AI整合進國防體系並確保其不破壞所謂的民主價值。這個提議聽起來既務實又理想主義——問題恰恰在於,它可能過於理想主義了。更令人玩味的是,就在布坎南構想這份“大交易”之後不久,DeepSeek正在以一種近乎諷刺的方式,拆解著他所依賴的核心假設。這家被美國晶片出口管制嚴密封鎖的公司發佈了DeepSeek V3.2,實測在開源模型中達到全球最高水平,與海外頂級閉源模型的差距縮小至約一個季度。該模型分為普通版和特別版:普通版性能對標 GPT-5,特別版則媲美 Gemini 3.0 Pro,尤其在數學與推理能力上表現突出。這不僅是一次技術突破,更是對美國“晶片遏制”戰略的一記響亮耳光。晶片政策的分歧:遏制還是“上癮”?在理解布坎南“大交易”的困境之前,我們必須先釐清美國AI戰略界內部一個長期存在但鮮被公開討論的根本分歧——關於對華晶片政策,決策圈內實際上存在著兩種截然不同的哲學。本·布坎南(Ben Buchanan)第一派可稱為“技術依賴派”或“上癮派”。這派觀點認為,應當允許中國大陸在一定程度上獲取美國的先進AI晶片,使其AI生態系統建立在美國技術基礎之上,形成一種戰略性依賴。這種策略的邏輯類似於毒品販子的手法:先讓對方上癮,然後控制供應鏈就能控制對方的技術發展節奏。輝達最初對中國大陸市場的態度——不斷推出降級版晶片如H800、H20來規避出口管制——某種程度上體現了這種思路。這一派相信,只要中國大陸市場的AI產業離不開美國晶片,華盛頓就永遠掌握著關閘的權力。第二派則是布坎南所代表的“全面遏制派”。在他們看來,任何對中國大陸的技術滲透都是危險的,必須在製造端實施最嚴格的封鎖,不給中國大陸任何獲取先進算力的機會。這種觀點在2022年10月拜登政府大幅擴展晶片管制時達到高峰,不僅限制先進晶片出口,還限制晶片製造裝置,甚至禁止美國公民為中國大陸半導體公司提供技術支援。布坎南在文中對中國大陸“軍民融合”戰略的惡毒指控,都清晰地顯示出他屬於這一陣營。然而諷刺的是,DeepSeek的成功恰恰證明了兩種策略可能都已失效。“上癮派”的夢想破滅了——中國大陸AI企業並沒有因為依賴美國晶片而束手就擒,反而在被斷供後激發出了驚人的技術創新能力。而“遏制派”的策略同樣遭遇挫敗——即便在最嚴格的出口管制下,中國大陸企業仍通過演算法最佳化、架構創新和可能的走私管道,實現了技術突破。正如智庫Stimson Center的分析所言,出口管制的“卡脖子”假設本身就是一個謬誤——每一次限制都會留下縫隙和漏洞,而目標國家的適應和創新能力往往被嚴重低估。更值得警惕的是,這種封鎖正在催生一個危險的結果:“設計出去”(designing out)。當美國技術被完全排除在外時,中國大陸企業別無選擇,只能開發完全繞過美國技術的替代方案。華為用麒麟9000s晶片替代高通,導致高通2024年損失6000萬套晶片銷售,就是一個典型案例。長期來看,這種“設計出去”將永久性地侵蝕美國在全球半導體生態系統中的地位——當中國大陸建立起完整的國產替代體系後,即便美國日後放鬆管制,市場份額也難以奪回。布坎南的“大交易”建立在全面遏制戰略能夠成功的假設之上,但現實已經在反覆證明,這個假設正在崩塌。能源幻覺與基礎設施的政治死結“大交易”的第一個支柱是政府為AI產業提供充足的能源基礎設施。布坎南在文中引用的資料令人震撼:到2028年,美國AI產業僅新增電力需求就將達到500億瓦,相當於整個阿根廷的用電量,資料中心可能消耗美國電力產量的12%。與此形成鮮明對比的是,中國大陸每年新增電力容量達12%,而美國在2005至2020年間幾乎沒有新增淨電力。這個對比看似有力,實則掩蓋了一個更深層的問題:為什麼美國在過去二十年間幾乎沒有新增電力?答案並非技術能力不足,而是美國社會在能源政策上陷入了一個幾乎無解的政治死結。一方面,任何大規模的新建電廠項目——無論是傳統化石能源還是核電——都會面臨環保團體、地方社區和監管機構的多重阻撓。美國的環境影響評估流程可以讓一個電廠項目耗費十年以上時間仍無法開工。另一方面,即便是清潔能源項目,也面臨著“不要建在我家後院”(NIMBY)效應的困擾。加州在可再生能源方面走在全美前列,但其電網卻經常因為峰值負荷而陷入危機,而新建輸電線路的項目同樣被環保和土地糾紛困住。布坎南樂觀地認為,AI驅動的能源繁榮將創造就業、加速清潔能源開發,實現“無碳化營運”。但這種敘事忽略了一個殘酷現實:在美國當前的政治生態下,任何大規模基礎設施建設都會遭遇曠日持久的黨派爭鬥、司法訴訟和監管審批。川普政府宣佈的5000億美元Stargate項目看起來宏大,但如果我們回顧川普第一任期內承諾的基礎設施投資有多少真正落地,就不難理解這些承諾的可信度。美國電力短缺狀況(@華盛頓大學)更諷刺的是,當前美國政治氛圍下,對AI的態度本身就充滿分裂。一部分人將AI視為新的經濟引擎和國家安全工具,另一部分人則擔心AI導致失業、隱私侵犯和社會不平等。在這種背景下,要求政府為AI產業大規模投資能源基礎設施,本身就可能引發激烈的政治反彈。那些在鏽帶州失去工作的選民,那些被高房價和生活成本壓得喘不過氣的中產階級,憑什麼要為矽谷科技巨頭買單,幫助他們獲得更多電力來訓練AI模型?中國大陸的優勢恰恰在於其政治體制能夠快速調動資源實施大規模基礎設施建設。當決策者確定AI是戰略重點時,電廠、資料中心和配套設施能夠以驚人的速度上馬。這不是單純的技術問題,而是治理模式的差異。布坎南的“大交易”假設美國政府能夠提供類似的支援,但這個假設本身就忽視了美國政治體制的結構性制約。人才政策的內在矛盾“大交易”的第二個支柱是維持國際人才管道。布坎南正確地指出,70%的頂級在美AI研究人員出生在國外,65%的領先美國AI公司至少有一位移民聯合創始人。但他對人才政策面臨的困境卻語焉不詳。川普政府在移民政策上的立場與布坎南的設想存在根本衝突。將H-1B簽證費用提高到10萬美元,大幅收緊國際學生入學政策(2025年可能導致國際學生入學率下降30%-40%),這些措施的政治邏輯與“保持AI人才流入”完全相悖。但問題的關鍵在於:這些移民政策並非出於無知或短視,而是回應了美國社會中一股強大的民粹主義情緒。對許多美國選民而言,保護美國就業、防止移民搶走機會是比維持AI領先地位更直觀、更緊迫的關切。當布坎南談論引進更多外國AI人才時,政治現實是,這種政策會被解讀為“讓外國人來搶美國人的工作”。技術精英和政策制定者可以用國家安全和經濟競爭力來論證開放移民的必要性,但這套話語在政治市場上的說服力遠不如美國優先來得有力。更深層的矛盾在於,布坎南一方面希望政府幫助AI產業獲得更多國際人才,另一方面又主張將AI深度整合進國家安全體系。但任何有過安全審查經驗的人都知道,涉及國防和情報的項目對人員背景有極其嚴格的要求。當AI越來越多地被用於軍事和情報用途時,如何平衡人才開放性和安全審查的嚴格性?那些來自對手國家的研究人員——包括大量來自中國大陸的AI專家——是否還能參與最前沿的AI研發?布坎南似乎希望魚與熊掌兼得:既要保持美國作為全球AI人才磁石的地位,又要加強對AI技術的國家安全管控。但這兩個目標存在內在張力。中國大陸正在積極招募AI專家回國,而美國日益收緊的移民政策和日益政治化的科研環境,可能會加速這種人才回流。當美國大學裡的中國大陸留學生發現自己無論多麼優秀都難以獲得工作簽證,當他們的研究因為敏感性而受到限制時,選擇回國就成了理性選擇。而這正是布坎南所擔心的人才外流。政府-產業合作的結構性障礙“大交易”設想的核心是政府與科技行業建立深度合作關係。但這個設想面臨一個尷尬的現實:雙方之間存在著深刻的互不信任。從科技行業的角度看,政府意味著繁瑣的監管、緩慢的決策流程和對商業創新的束縛。矽谷文化崇尚“快速行動,打破陳規”(Move fast and break things),而政府系統的特點恰恰是謹慎、官僚和風險規避。更重要的是,科技公司擔心與政府深度合作會限制它們的商業自由。如果將AI系統深度整合進國家安全體系,這意味著更嚴格的出口管制、更多的安全審查、更少的國際市場機會。對那些在全球營運的科技巨頭而言,這是一個巨大的代價。從政府的角度看,科技公司則是一群難以管束、唯利是圖、不考慮國家安全的商業實體。OpenAI、Google、Meta這些公司都曾因為與軍方和情報機構的合作項目引發內部員工抗議。2018年,Google員工成功迫使公司退出了與國防部的Maven項目。這種企業內部對軍事合作的牴觸,讓政府對科技公司的可靠性深表懷疑。布坎南在白宮任職期間主導的一些政策,恰恰體現了這種張力。拜登的AI行政命令要求科技公司自願做出安全承諾,但這些承諾大多停留在原則層面,缺乏強制約束力。而當政府試圖實施更嚴格的監管時,科技公司又會動用強大的遊說力量來阻撓。這種貓捉老鼠的遊戲,很難想像能夠昇華為布坎南所設想的“大交易”式的戰略夥伴關係。更根本的問題在於,“大交易”假設政府和產業能夠就AI的發展方向達成一致。但實際上,雙方對許多核心問題存在嚴重分歧:AI應該多大程度上開放?誰應該控制最強大的AI系統?AI帶來的經濟收益應該如何分配?AI技術應該向那些國家和實體出口?在這些問題上,政府和科技公司的利益遠非完全一致,而且內部也存在嚴重分歧。要在這樣的基礎上達成一個覆蓋能源、人才、國家安全等多個維度的“大交易”,難度之大可想而知。時間的殘酷性與政策的惰性布坎南正確地指出,AI進步速度極快,政策制定者必須在極短時間內做出重大決策。但他的“大交易”卻要求完成一系列在美國政治體制下通常需要數年甚至數十年才能實現的任務:大規模能源基礎設施建設、移民政策根本性改革、政府-產業關係的深刻重構、國家安全體系的全面AI化。這裡存在一個根本性的時間錯配:AI技術的演進以月為單位,而美國政治體制的變革以年甚至十年為單位。在拜登任期內,布坎南主導的AI行政命令確實取得了一些進展,建立了AI安全研究所等機構,推動了一些自願承諾。但這些成就與“大交易”設想的宏大目標相比,幾乎微不足道。而現在,川普政府正在系統性地拆除拜登時期建立的許多AI治理框架,包括放鬆晶片出口管制——這正是布坎南最擔心的事情。政治周期的不穩定性使得任何長期戰略都難以為繼。一個政府費盡心力建立的政策框架,可能在下一個政府上台後被全盤推翻。在這種情況下,要求政府和產業就一個需要十年、二十年才能見效的“大交易”達成共識,無異於痴人說夢。中國大陸的體制優勢恰恰在於其政策的連續性和長期性——當中國大陸將AI確定為戰略重點時,這個戰略可以持續數十年不變,資源投入也能夠保持穩定。美國的民主制度有其獨特價值,但在需要長期戰略規劃的技術競爭中,這種制度的弱點暴露無遺。布坎南的“大交易”本質上是一個防禦性戰略,它的出發點是“防止失去領先地位”而非“創造新的突破”。這種心態本身就反映了一種焦慮和不自信。當一個國家的AI戰略主要由防止對手超越而非創造革命性創新驅動時,它實際上已經喪失了先機。中國大陸的AI戰略雖然也包含趕超美國的目標,但更重要的是建立自主創新能力和獨立的技術生態。DeepSeek的成功正是這種戰略思維的體現——與其被動等待美國放鬆封鎖,不如主動探索新的技術路徑。難以癒合的裂痕最終,“大交易”之所以難以實現,根源在於它試圖彌合的那些裂痕可能本就無法癒合。美國社會在AI問題上的分裂是深層次的。技術精英認為AI是下一個增長引擎,必須不惜一切代價保持領先;普通民眾擔心AI導致失業和不平等;環保主義者反對為AI建設消耗巨量資源的資料中心;民族主義者要求限制移民和技術出口;國際主義者強調開放合作的重要性。這些立場之間的矛盾,不是一個“大交易”就能調和的。政府和科技公司之間的不信任是結構性的。科技公司希望政府提供支援但不要干預,政府希望科技公司服從國家利益但又不完全信任它們。這種關係更像是一種脆弱的共生而非穩固的夥伴關係。美國和中國大陸的競爭是長期的、全方位的,不可能通過單一的技術封鎖或單一的政策框架來解決。中國大陸的制度優勢在於能夠集中資源和長期規劃,美國的制度優勢在於創新活力和市場機制。但當競爭進入到需要國家動員和長期規劃的階段時,美國的制度優勢可能反而成為劣勢。布坎南的“大交易”建立在一個過於樂觀的假設之上:只要政府和產業達成正確的協議,美國就能夠延續其在AI領域的領先地位。但現實可能更加殘酷——不是美國不夠努力,不是政策不夠好,而是歷史的鐘擺正在擺向另一邊。技術霸權從來不是永恆的,曾經的領先者往往會在新的技術範式轉換中失去優勢。AI可能正是這樣一次範式轉換,而“大交易”式的修補方案,或許只是延緩衰落而非逆轉趨勢。在DeepSeek證明封鎖無效、川普政府拆除拜登時期的AI治理框架、美國社會在移民和能源政策上陷入僵局的當下,布坎南的“大交易”更像是一個精緻的政策幻想,而非可行的戰略方案。這並非說布坎南的診斷不對——美國在AI領域確實面臨能源、人才、安全整合等多重挑戰。問題在於,他開出的藥方需要一個在當前美國政治現實中幾乎不存在的條件:高度共識、長期承諾、政府效率和超黨派合作。當這些前提條件都不具備時,“大交易”就只能停留在紙面上,成為又一個華盛頓政策圈裡的美好願景,而非能夠真正塑造現實的戰略行動。 (心智觀察所)
硬剛Gemini 3.0 Pro! DeepSeek V3.2實測性能確實猛,但這三個「硬傷「不得不防
矽谷早晨驚醒,發現追兵已至。當中國對手拿出了旗鼓相當的產品,卻打出「完全免費」的底牌時,這場仗該怎麼打?12月1日,DeepSeek帶著他們的全新“雙子星”—— DeepSeek-V3.2正式版(日常推理的“打工仔”)和DeepSeek-V3.2-Speciale(專攻推理的“頂流學霸”)殺回來了:奧賽金牌手軟,推理能力比肩,直接開啟了AIAI客戶時代的“谷歌免費”。「人們以為DeepSeek只是一次性突破,但我們以更大規模回歸。」計畫貢獻者陳方在社群媒體上的這句「豪言」,無異於向全球AI圈下了一封「硬核戰書」。網路上瞬間“炸鍋”,無數用戶湧入評論區,甚至有人高呼:“ChatGPT安息吧!”YouTube知名SEO部落客朱利安·戈爾迪(Julian Goldie)在評測後直言,這款剛發布的模型,在幾乎每一項頂級推理和編程測試中,都對那些收費昂貴、壁壘森嚴的閉源巨頭發起了強有力的挑戰。DeepSeek-V3.2不僅在程式設計競賽中榮獲金牌,更輕鬆解決奧賽級數學難題。更瘋狂的是:它完全開源,支援直接本地運行,成本甚至僅為GPT-5的1/25。正如網友所驚呼:「有些人還沒意識到這次發布的分量有多重!」它不僅是一項技術突破,更是對「開源比閉源落後8個月」這一說法的當頭棒喝。現在,讓我們一起研讀「剛剛宣布」的白皮書和技術報告,看看這個V3.2究竟是如何成為「頂級AI時代的免費入場券」的。有網友評論認為:中國在頂尖模型應用層的「追趕窗口」已經基本關閉,中美AI競賽已進入「貼身肉搏」的白熱化階段。你還在支付昂貴的API費用?不好意思,別人已經開著免費的「頂配超跑」上路了。性能狂飆:頂級「學霸」Speciale的「奧賽金牌收割機」模式戈爾迪表示,這次發布的焦點無疑是DeepSeek-V3.2-Speciale。這個擁有6850億參數的“大聰明”,直接帶著一疊金光閃閃的“成績單”登場,讓所有閉源模型都感受到了來自“別人家孩子”的壓力。它在幹什麼?它在「收割金牌」中:· 2025年國際數學奧林匹克競賽(IMO):Speciale豪取35/42分,穩拿金牌· 國際資訊學奧林匹克競賽(IOI):拿下492/600分,再度拿下金牌· ICPC世界總決賽:一口氣解出10/12題,直接鎖定總排名第二有網友看到這串成績直接“原地起飛”:“IMO、CMO、ICPC金牌?🏅 DeepSeek的Speciale不僅僅是突破極限——它簡直是顛覆極限!這種競技成就足以引起整個領域的關注。絕對震撼!🚀”在與閉源巨頭的正面PK中,Speciale 更是打出了“王牌”,直接把GPT-5和Gemini 3.0 Pro“摁在地上摩擦”。它用事實證明:開源模型也能成為頂尖層次的代名詞。· 在美國數學競賽AIME 2025上:Speciale 變體通過率達96.0% ,高於GPT-5-High 的94.6% 和Gemini-3.0-Pro 的95.0%· 在哈佛-麻省理工HMMT 數學競賽:Speciale 得分99.2%,超越Gemini 的97.5%同時,標準版V3.2模型在AIME 和HMMT 分別得分93.1% 和92.5%,雖略低於前沿模型,但在計算資源消耗上顯著較少。在程式設計基準測試中,DeepSeek-V3.2在SWE-Verified 上成功解決了73.1% 的真實軟體錯誤,與GPT-5-High 的74.9%旗鼓相當。在衡量複雜編碼工作流程的Terminal Bench 2.0上,其得分為 46.4%,顯著高於GPT-5-High 的35.2%。這意味著它在處理實際複雜程式碼工作流程時,思路更清晰、效率更高,簡直就是程式設計師的「頂級外掛」。有網友評論道,DeepSeek 的新模型非常強大,性能已經能和GPT-5、Gemini 3.0這些頂級閉源模型正面競爭了。尤其是它在數學競賽等推理任務上的表現,標誌著開源模型達到了新高度。既然免費開源的模型已經這麼好,再花錢用閉源API 就不划算了,這宣告了開源時代的全面到來。科技白皮書「大揭密」:打破性能魔咒的三大突破DeepSeek 團隊在白皮書中坦誠了一個核心痛點:儘管開源社群在努力,但閉源專有模型(如Anthropic、OpenAI)的效能提升速度更快,二者之間的效能差距非但沒有縮小,反而看似在擴大。但V3.2就是來終結這個「魔咒」的。它的成功並非靠簡單堆疊算力,而是基於三大革命性的技術突破。戈爾迪對此進行了總結:1. 更聰明的注意力機制傳統大模型在閱讀長文件時之所以“慢且貴”,是因為它們必須採用更複雜的注意力機制,時刻關注所有內容,導致成本呈指數級暴增。 DeepSeek 的解決方案是稀疏注意力(DSA)配合“閃電索引器”。DSA 不再掃描所有Token,而是透過「閃電索引器」快速檢索並只挑選最重要的部分進行聚焦。這就像是AI 快速瀏覽一本厚書,只抓住精華要點,而不是逐字閱讀。因此,即使在處理128K 的超長上下文時,推理速度也提升了約3.5倍,記憶體佔用減少70%,同時Token 消耗量顯著降低,大大提升了成本效益。2. 「砸錢」後訓練大多數AI 公司在模型主訓練(預訓練)完成後,只會投入一小部分預算進行後訓練(微調)。而DeepSeek 直接「財大氣粗」地將其預訓練總預算的10% 以上,全部投入了基於強化學習的後訓練中。這種大規模的投入和專門的強化學習技術,大大提升了模型的穩定性和最終能力。他們不再滿足於“能用”,而是追求“專家級性能”。3. 智能體合成訓練:拒絕“金魚記憶”V3.2的Speciale 模型是專為智能體(Agent)能力而生的。它的核心優勢是「思考鏈」方法,可以多次呼叫工具而不必重新開始。這種訓練的目的是消除傳統AI 在跨工具調用時「丟失思路」的頑疾。為了實現目標,DeepSeek 創建了一個專門的合成訓練流程,旨在改善工具使用能力。這使得V3.2原生支援「推理加工具使用」,完美適用於複雜的多步驟工作流程。親身體驗:免費跑「金牌模型」的誘惑與現實戈爾迪認為,最瘋狂的部分在於,你完全可以在當地運行它。DeepSeek V3.2在託管網站Hugging Face 上已經完整開源,模型權重、聊天模板、本地運行指南一應俱全。對於文件助理建構者、智能體系統開發者和長上下文聊天機器人設計師來說,這簡直是天降橫福。極客硬派可以直接去Hugging Face 或GitHub,使用VLLM、Kaggle、Google Colab 或Transformers 函式庫,動手折騰程式碼,本地運行。嚐鮮體驗派則可造訪DeepSeek 官網,直接在網頁端體驗V3.2的「深度思考」與「非深度思考」模式。然而,我們也要保持清醒:如實測所見,目前V3.2還沒完全整合到像Ollama 或Open Router 這樣方便的第三方平台。如果你不是“代碼狂魔”,你必須經歷“複雜的編碼工作”才能本地部署,那麼它的便利性確實打了折扣。戈爾迪吐槽道:“老實說,對我來說,如果使用起來不那麼方便——比如必須去Hugging Face,然後折騰代碼等等——我可能不會經常使用,因為這會耗費我大量時間。”但如果它能直接整合在聊天介面裡,戈爾迪表示會很有興趣測試並看看它的表現。優勢與限制:五大爽點與三大局限當然,再強的模型也有其「成長的煩惱」。戈爾迪總結了DeepSeek V3.2的五大優勢(爽點):能夠處理超大上下文(DSA 機制紅利)、推理高效(速度快如閃電),在推理和工具使用方面表現卓越(Agent 能力強大),具備專家級性能(基準測試中擊敗付費模型),並且完全開源。不過,它也有三大限制:在近期世界知識方面仍有滯後(需要外部檢索RAG 來「補課」),標記效率不夠優化,且在極其複雜的推理上仍需打磨。在戈爾迪看來,V3.2應該被視為“推理和工作流引擎”,而不是知識問答機。如果你是文件助理建構者、智能體系統開發者或長上下文聊天機器人設計師,它就是你苦候多時的「神兵利器」!DeepSeek V3.2的發布,不僅是一個新模型,更是一個歷史性的轉捩點。它用實打實的效能數據和慷慨的開源策略,宣告了:開源與閉源之間的效能差距正在迅速抹平。(網易科技)
【DeepSeek】GPT-5危了!DeepSeek開源世界首個奧數金牌AI,正面硬剛Google
沉寂許久的DeepSeek又回來了!今天,DeepSeekMath-V2重磅登場,一舉奪下IMO 2025金牌,實力媲美甚至超越了Google的IMO金牌模型,開源AI再次扳回一局。DeepSeek再次歸來!剛剛,DeepSeek重磅發佈DeepSeekMath-V2新模型,一舉奪下IMO 2025金牌。最關鍵的是,這是首款「開放原始碼的IMO金牌模型」。基於DeepSeek V3.2 Exp Base建構當前,已官宣拿下金牌的兩大模型,一款來自GoogleGemini Deep Think,另一款便來自OpenAI的內部模型。在IMO-ProofBench中,DeepSeekMath-V2展現出強大的定理證明能力:IMO 2025:破解5題(共6題),達到了金牌水平;CMO 2024(中國數學奧林匹克):達到金牌水平;Putnam 2024:得分118接近滿分(120分),超越人類參賽者最高分(90分)。不僅如此,在ProofBench-Basic上,DeepSeekMath-V2的實力碾壓Google金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追Google。論文中,團隊訓練了一個基於LLM驗證器(Verifier)作為獎勵函數,並以此訓練模型以自主解決問題。而且,他們還Scaling了驗證器算力,來標註更複雜的證明,進一步最佳化了驗證器本身。這種方法非常巧妙,能有效彌合生成與驗證之間的差距。結果實證「可驗證的數學推理」,是未來一條可行的研究方向。DeepSeekMath-V2 讓「自驗證」成最強武器DeepSeekMath-V2的論文也於GitHub同步放出了。DeepSeek最新發佈的DeepSeekMath-V2帶來的核心突破就是:自驗證(Self-Verification)。這不僅讓它在最難的數學競賽中橫掃人類頂尖選手,更重要的是,它揭示了通往更高級AI的一條必經之路——學會自我反思。為什麼只看結果是不夠的在過去,訓練AI做數學題的方法很簡單:給它一道題,如果它算出的答案和標準答案一致,就給它獎勵。這在簡單的計算題(如AIME競賽)中很有效。但到了數學皇冠上的明珠——國際數學奧林匹克(IMO)這個等級,這種方法就徹底失效了。因為IMO的題目往往沒有簡單的數值答案,而是要求你寫出一段邏輯無懈可擊的證明過程。以前的AI在這裡經常是個「大忽悠」,它能胡編亂造一通看起來很專業的數學黑話,最後強行得出一個結論。雖然它可能蒙對了結果,但過程全是漏洞。DeepSeekMath-V2決定從根本上改變規則,不僅要獎勵正確的答案,更要獎勵嚴謹的「自我找茬」過程。秘密武器:左右互搏的三位一體為了實現這種「自我反思」,DeepSeek設計了一套精妙的「左右互搏」系統,就像在AI的大腦裡住了三個人:1.「做題家」(Generator,證明生成器):負責解題和寫證明。但與以往不同,它被訓練成不僅要寫答案,還要寫一段「自我評價」。它必須誠實地說:「這步我有點不確定,可能是錯的。」研究團隊巧妙設計了獎勵,帶來了下列激勵效果:誠實面對錯誤,比「硬說自己是對的」更有利。寫出真正正確的證明,並精準識別其嚴謹程度,可以獲得最高獎勵。對生成器來說,最優策略是:在最終回答前,發現並修正儘可能多的問題。2.「鐵面判官」(Verifier,證明驗證器):這是DeepSeek專門訓練的一個評分模型。它不看答案對不對,而是專門盯著證明過程挑刺。它會像閱卷老師一樣,給證明打分(0分、0.5分、1分),並指出具體的邏輯漏洞。1分:證明完整且嚴謹,所有關鍵推理步驟都有清晰、充分的論證;0.5分:整體思路正確,但在細節上存在輕微錯誤或略去部分論證;0分:存在致命邏輯錯誤或關鍵缺口,導致證明在本質上不成立。3.「判官的審計員」(Meta-Verifier,元驗證器):這是最絕的一步。因為「判官」也可能犯錯,或者為了省事偷懶瞎判。於是DeepSeek又引入了一個「元驗證」機制,專門檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個不存在的錯誤,它會被「審計員」打手板。「元驗證器」來檢查驗證器給出的分析,包括:1. 驗證器指出的問題是否真實存在於原證明中;2. 這些問題是否足以合理支撐它給出的得分,且符合原有的評分細則。用元驗證器來評估驗證器輸出分析的平均質量分數,從0.85提升到了0.96,同時保持了原有的打分精準率。在這三者的配合下,DeepSeekMath-V2甚至能做到在沒有標準答案的情況下,自己給自己出題、自己做、自己批改、自己重做。首先,證明驗證器與證明生成器之間形成了良性的「閉環」:驗證器為生成器提供獎勵訊號,從而不斷提高生成器的證明能力;隨著生成器水平提升,它會產生越來越「刁鑽」的新證明,這些證明反過來又會暴露出驗證器尚未覆蓋的薄弱點。尤其是那些「驗證器第一次嘗試沒能抓出問題」的證明樣本,對進一步訓練驗證器來說價值極高。為了高效獲取新證明的正確性標籤,研究團隊設計了自動化標籤生成流程:在最後兩輪訓練迭代中,這條全自動標註流水線已經完全替代了人工標註。後續的質量檢查表明,自動生成的標籤與人類專家的判斷高度一致。巔峰對決:DeepSeek vs Gemini在這個領域,DeepSeek並不孤單。GoogleDeepMind的Gemini Deep Think也是剛達到IMO金牌水平的頂尖選手。兩者的對比非常有意思:DeepMind像是擁有無盡資源的貴族,其實力毋庸置疑,在某些高級基準測試(如IMO-ProofBench Advanced)上依然保持領先。DeepSeek則像是半路殺出的天才少年。根據DeepSeek的論文,他們的V2模型在基礎測試集(ProofBench Basic)上已經反超了Gemini Deep Think,並且在公開的競賽題目上展現出了驚人的統治力。更重要的是,DeepSeek將這一技術路徑開源並詳細披露了訓練方法。這為全世界的AI研究者提了個醒:通往AGI的路上,自驗證可能比單純堆算力更重要。直追GoogleOpenAI,開源IMO模型贏了這一令人驚嘆的成績背後,是DeepSeekMath-V2在實驗中展現出的某種「反直覺」的進化特徵。「一次做對」的能力:全方位碾壓GPT-5和Gemini如果剝離掉所有複雜的反覆思考和驗證過程,只看模型的「第一直覺」——也就是所謂的One-Shot能力,DeepSeekMath-V2依然表現出了統治級的實力。研究團隊建構了一個包含代數、幾何、數論、組合和不等式五大類難題的內部測試集CNML(難度對標中國高中數學聯賽)。在這個競技場上,DeepSeekMath-V2與目前市面上最強的兩大推理模型——OpenAI的GPT-5-Thinking-High和GoogleDeepMind的Gemini 2.5-Pro進行了正面硬剛。結果如圖所示:DeepSeekMath-V2並不是險勝,而是完全勝利:代數:遠超GPT-5和Gemini;幾何:得分幾乎是Gemini 2.5-Pro的三倍;數論與組合:同樣穩穩佔據第一梯隊。這說明,即使不給模型「多想一會兒」的機會,它的底座能力已經極其強悍。進化的關鍵:讓模型「多想幾次」真正讓DeepSeekMath-V2與眾不同的,是它在連續修正實驗中的表現。在面對IMO候選題(Shortlist)這種等級的難題時,模型往往無法一次性寫出完美的證明。實驗顯示,如果允許模型進行「自我驗證」——即生成答案後,自己挑毛病,然後帶著問題重新生成,奇蹟就發生了:初始狀態(迭代1次):模型的平均得分為0.15。反覆思考(迭代8次):當允許模型最多進行8次「自我修正」後,證明的質量分數飆升到了0.27。更有趣的是,如果讓模型從自己生成的32個解法中挑一個最好的(Best@32),它的評分精準度極高,得分直接躍升至0.42。這證實了一個關鍵點:模型不僅能改錯,而且非常有自知之明,它清楚地知道自己那個答案是最好的。暴力美學與智慧的結晶:高算力搜尋前文提到的普特南數學競賽118分(接近滿分)的「神蹟」,並非僅靠運氣,而是得益於一種「高算力搜尋」(High-Compute Search)策略。DeepSeek團隊在實驗中採用了一種極端嚴苛的測試方式:1.海量候選:對每道題初始生成64個候選證明。2.地獄級驗證:為每一個證明生成64個獨立的驗證分析。3.優勝劣汰:只有那些能通過所有64次驗證的證明,才會被認為是「完全可信」的。正是這種「千錘百煉」的策略,讓模型解決了IMO 2025中6道題裡的5道,以及在CMO 2024中拿下金牌水平。實驗資料還揭示了一個有趣的現象:對於那些它沒做出來的題,模型通常能精準地找出自己證明中的漏洞;而對於做出來的題,則是真真切切地通過了所有考驗。這是「LLM可以被訓練成可靠的數學驗證者」這一假設的有力實證。DeepSeekMath-V2意味著什麼DeepSeekMath-V2的成功告訴我們,AI正在從「模仿人類說話」進化到「模仿人類思考」。真正的思考,往往伴隨著自我懷疑。當我們看到AI開始在輸出最終結果前,懂得停下來,對自己說一句「這看起來不太對,我再算一遍」時,那才是它真正超越工具屬性的時刻。真正的智慧,不僅在於瞬間給出答案,更在於擁有推翻自己的勇氣與能力。 (新智元)
Google AI突破,為何反成行業利空? | 巴倫科技
這不僅僅是一個DeepSeek時刻,它可能遠遠超過那個層面。一款由AI驅動的全新聊天機器人橫空出世,不僅引發了科技股對動盪市場領軍地位的激烈角逐,同時也引發了人們對輝達晶片需求的新擔憂——而正是輝達晶片撐起了華爾街最熱門的股票。這番描述既可以用來描述中國聊天機器人DeepSeek問世時的市場反應(當時它讓整個科技圈震驚,還曾一度導致美股下跌),也同樣適用於最近發生的情形,即Google母公司Alphabet推出新版Gemini 3後的市場表現。Alphabet的股票是今年迄今為止“七巨頭”中表現最好的,該公司上周發佈了最新版聊天機器人,而投資者現在才開始意識到,這款產品在未來幾個月內可能會對人工智慧類股產生怎樣的影響。據報導,Gemini 3在運行速度、反應靈敏度和深度推理能力上均優於OpenAI的ChatGPT、埃隆・馬斯克旗下的Grok以及傑夫・貝索斯支援的Perplexity。該產品可以很好地融入Google旗下廣泛的應用生態及其市場領先的搜尋業務中,定價也與競爭對手的AI模型持平或更低。但更重要的是,Gemini 3主要是利用Google自家的張量處理單元(TPU)進行訓練的,而不是像競爭對手那樣依賴輝達的晶片。TPU的靈活性不如輝達的圖形處理單元(GPU),這也意味著在超大規模企業斥資數十億美元採購可靈活重新程式設計系統的市場中,TPU的價值可能會相對降低,但TPU的研發成本更低,滿負荷執行階段的功耗也更小。這一點正在令華爾街感到不安。“有些投資者極為擔心,憑藉Gemini模型的巨大進步以及定製TPU晶片所帶來的持續優勢,Alphabet可能會在AI大戰中獲勝。”華爾街諮詢機構Melius Research的科技策略師Ben Reitzes表示。他補充道:“現在就斷言Alphabet最近的突破讓它成為AI領域的長期贏家,還為時尚早。話雖如此,半導體企業和超大規模雲端運算公司(尤其是甲骨文)必須警覺到,‘Alphabet問題’已經成為一個值得關注的風險點。”甲骨文此前已經斥資數十億美元採購輝達晶片用於雲端租賃。如果更低成本的TPU出現,一旦其他公司建立AI雲服務競爭平台,甲骨文在價格上可能會被削弱競爭力。知名投資機構D.A. Davidson的分析師Gil Luria估算,如果Google將DeepMind AI研究實驗室與TPU晶片銷售業務拆分出去,組建獨立公司,其估值可能接近1兆美元,這也可能成為“堪稱Google最具價值的業務之一”。另一方面,即便輝達在AI領域的領先優勢出現小幅縮小,都可能在未來幾個月內引發連鎖反應,對市場造成衝擊。那些此前在輝達半導體上大舉投資的企業,如果發現更便宜的晶片同樣表現出色,可能會因此陷入“買家懊悔”。目前,從上市的超大規模科技公司到OpenAI 等初創企業,整個行業的估值都已處於極高水平,而這項新技術對實體經濟的實際利多仍存在不確定性。實際上,OpenAI 首席執行官薩姆·奧特曼在上周《The Information》發佈的一份內部備忘錄中坦言,Google在人工智慧方面的進步,很可能會給公司帶來“一些暫時的經濟阻力”。他表示:“我預計外界的氛圍會艱難一陣子。”Google的股價已反映出部分市場預期,周一上漲了6.3%,盤中一度創下每股318.58美元的歷史新高。今年以來,該股累計上漲了68%,而“七巨頭”指數同期漲幅為22%,納斯達克綜合指數則上漲了18%。其TPU製造合作夥伴博通(Broadcom)在周一下午早些時候上漲了11%,今年以來的漲幅略超63%。與此同時,輝達股價小幅上漲,但自本月初以來仍下跌了近9%。根據道瓊斯市場資料,目前輝達4.35兆美元的市值與Google市值之間的差距已縮小到約5260億美元,為自四月以來的最小水平。伯恩斯坦資深分析師斯Stacy Rasgon並不那麼關注在當前的AI軍備競賽中短期贏家的歸屬,他更關心的是這場競爭的持續性。Rasgon周一在接受CNBC採訪時表示:“我們還沒到需要擔心誰贏誰輸的時候。現在更需要關注的問題是,AI領域的機遇是否可持續。”他補充道:“如果可持續,大家都沒問題;如果不可持續,大家都完了。” (Barrons巴倫)
一、AI大模型基本原理
最近隨著資本做空輝達,巴菲特退休之前押注Google,國內阿里的QWen3-max推出,大模型應用在沉寂大半年之後又開始活躍。畢竟輝達是賣鏟子的,真正拿鏟子去耕種的還得是大模型基座以及基於大模型的應用開發。💡 本文會帶給你什麼是AI?AI大模型能做什麼大模型現階段落地情況綜述怎樣尋找企業中大模型落地場景大模型的通俗原理大模型技術的短板大模型應用技術架構DeepSeek本地部署和應用開始上課!什麼是 AI?「AI is bullshit。深藍沒用任何 AI 演算法,就是硬體窮舉棋步。」思考:「智能冰箱」是 AI 嗎?一種觀點:基於機器學習、神經網路的是 AI,基於規則、搜尋的不是 AI。AI大模型能幹什麼?大模型,全稱「大語言模型」,英文「Large Language Model」,縮寫「LLM」。現在,已經不需要再演示了。每人應該都至少和下面一個基於大模型的對話產品,對話過至少 1000 次。本課第一個專業要求:分清對話產品和大模型。但是,千萬別以為大模型只是聊天機器人。它的能量,遠不止於此。按格式輸出分類聚類持續互動技術相關問題可能一切問題,都能解決,所以是通用人工智慧 AGI用 AI,要用「用人思維」:機器思維:研發了什麼功能,就有什麼功能。用人思維:給 ta 一個任務,總會有些反饋,或好或壞,驚喜或驚嚇。劃重點:大模型就是一個函數,給輸入,生成輸出任何可以用語言描述的問題,都可以輸入文字給大模型,就能生成問題的結果文字進而,任意資料,都可以輸入給大模型,生成任意資料輝達 CEO 黃仁勳 2024 年 6 月 2 日在 Computex 上的演講提到各種模態資料的統一支援:大模型GPT時代:一切皆為向量AI驅動干行百業效率升級,大量行業場景應用價值仍待深挖大模型現階段落地情況綜述Killer App 沒有影,AI 原生待證明。手握場景不著急,內部提效暗暗行。Killer App 沒有影AI 沒有創造新的使用場景,只是舊場景的增強,所以沒有 Killer App 的土壤可以樂觀期待 Killer App,但別苦苦追求請忽略一切張嘴就是 Killer App 的人AI 原生待證明AI 原生,是指產品的核心功能是 AI,而不是 AI 作為輔助功能。典型特點是,有 AI 後才出現。助手類,打不過 Siri 們ChatGPTKimi Chat文心一言通義千問智譜清言……搜尋類,Google百度不會袖手旁觀Perplexity秘塔 AIDevv情感陪伴類,社交巨頭正謹慎觀察Character.AI(已被 Google 人才收購)星野Replika定製 Agent,商業模式探索中ChatGPT GPTs扣子DifyAI程式設計 ,目前最成功的AI應用CursorWindsurfInsCodemarscode手握場景不著急大玩家毫不落後,AI 帶來的市場格局變化不大。拍照答題GauthQuestion AI英語學習多鄰國有道 Hi Echo圖像處理美圖秀秀Adobe Firefly辦公WPS AICopilot for Microsoft 365釘釘魔法棒飛書智能夥伴騰訊會議智能助手程式設計GitHub Copilot全家桶GoogleMicrosoft字節跳動內部提效暗暗行很多企業將大模型和業務相結合,取得了或大或小的效果行銷AI 做行銷創意,人再加工AI 批次生產行銷素材多語言翻譯客服/銷售半 AI,適合本來有人做,AI 來提效全 AI,適合本來沒人做,AI 來補位辦公公文撰寫/總結/翻譯知識庫內部客服輔助決策情報分析BI產品研發創意、頭腦風暴IT 研發提效怎樣尋找企業中大模型落地場景1. 業務流程解構明確目標 :確定解構的目標是什麼,是否是提升效率、降低成本,還是增強產品或服務的質量。分析現有流程 :通過與相關部門和團隊溝通,瞭解當前的業務流程,使用流程圖、價值流圖等工具。收集資料 :收集與流程相關的資料,包括時間、資源、瓶頸等,識別出目前流程中的問題和改進點。識別關鍵環節:確定每個環節對業務結果的影響,識別那些環節最能推動價值產生,那些是浪費或低效的環節。2. 繪製企業價值流圖識別關鍵流程:將企業流程分為不同的關鍵環節,如供應鏈管理、生產流程、銷售等。標記價值增值活動:明確那些環節增加了實際價值,那些是純粹的支援性或非增值活動。流程中的浪費:識別流程中出現的浪費,如等待、過度處理、運輸、庫存、動作等。時間與資源:標註每個環節的時間、資源消耗,以及這些消耗如何影響最終的交付。改進方案:通過價值流圖,找到需要最佳化的環節,提出改善措施。3. 識別大模型應用場景資料驅動的決策:大模型可以幫助企業分析大量資料,提供更精確的決策支援,示例:通過AI分析客戶資料,最佳化市場行銷策略。自動化與智能化:大模型可以應用於自動化任務,如智能客服、語音識別、圖像識別等,減少人工成本並提升效率。個性化服務:通過大模型實現個性化推薦系統,基於使用者歷史行為或偏好為其推薦個性化的產品或服務,提高客戶滿意度和轉化率。預測與最佳化:利用大模型對歷史資料進行分析,預測未來趨勢,最佳化生產計畫、庫存管理等業務環節。業務流程改進:利用大模型分析當前業務流程中的瓶頸和效率低下的環節,提出改進措施,最佳化資源配置。實際應用案例:業務流程解構與企業大模型應用案例 1:智能客服系統最佳化1. 業務流程分析現有流程客戶通過電話或線上管道聯絡客服,人工客服接聽後處理問題。高峰時段,客服人員處理請求的速度較慢,且重複性問題佔比高。問題分析客服響應時間長,客戶體驗差。高重複性問題,人工客服效率低。客服人員壓力大,缺乏足夠的資源。2. 價值流圖繪製關鍵流程客戶請求 -> 人工客服接聽 -> 問題解決 -> 客戶反饋問題識別高峰期間等待時間長,人工客服需要處理大量重複問題,缺乏自動化支援。改進點引入自動化工具(如智能客服)減少人工干預,提升響應速度。3. 應用大模型自然語言處理(NLP)使用大語言模型(如GPT)建構智能客服系統,支援自然語言理解和生成,自動回答常見問題。工作流使用NLP識別客戶請求意圖並進行分類。常見問題通過智能問答系統自動解答。將複雜或不常見問題轉接給人工客服。結果客服響應時間減少50%,客戶滿意度提高。人工客服壓力減輕,更多精力投入到複雜問題處理上。案例 2:智能供應鏈與需求預測最佳化1. 業務流程分析現有流程企業生產與庫存管理依賴傳統的預測模型,按月或季度調整生產計畫,庫存管理不精確,容易造成庫存積壓或缺貨。問題分析生產計畫與實際需求不匹配,導致產能浪費或供應短缺。庫存管理不精準,影響現金流和營運成本。2. 價值流圖繪製關鍵流程需求預測 -> 生產計畫 -> 原材料採購 -> 產品生產 -> 倉庫管理 -> 客戶交付問題識別傳統需求預測精度低,庫存管理滯後,無法快速響應市場變化。3. 應用大模型機器學習模型利用歷史銷售資料、市場趨勢和季節性變化等因素,應用大模型提高需求預測精度。工作流使用AI進行資料分析和需求預測。自動調整生產排程和採購計畫。基於預測結果動態調整庫存管理策略。結果需求預測準確率提高20%,庫存積壓減少30%。生產和採購計畫更加精準,營運成本降低。案例 3:智能生產線質量控制1. 業務流程分析現有流程生產線上的產品質量由人工檢測,人工檢測存在判斷失誤和效率低的問題,特別是在高產量情況下,無法及時發現質量問題。問題分析質量檢測依賴人工,容易漏檢或誤判。高生產速度下無法保證每個產品都得到充分檢查,導致次品流入市場。2. 價值流圖繪製關鍵流程原材料入庫 -> 生產加工 -> 質量檢查 -> 產品包裝 -> 交付問題識別人工檢查的精準性和效率無法滿足生產需求,生產質量無法穩定控制。3. 應用大模型電腦視覺使用視覺大模型進行產品質量檢測,自動識別產品缺陷。工作流使用大模型對生產線上每個產品進行圖像識別,即時監控產品表面缺陷。對有缺陷的產品進行標記,及時移出生產線,避免流入市場。AI即時反饋生產資料給生產線控制系統,最佳化生產流程。結果質量檢測精度提升至99%,次品率減少80%。整體生產效率提升30%,減少了人工檢測的誤差和漏檢問題。總結這三個案例展示了如何通過大模型最佳化企業業務流程。智能客服、供應鏈最佳化和生產線質量控制是大模型應用的重要領域,通過自動化、預測和最佳化,企業能夠提高效率、降低成本,並提供更好的客戶體驗。通過結合大模型的強大能力,企業可以快速應對變化,提升競爭力。成功落地大模型五要素成功落地大模型五要素:業務人員的積極對 AI 能力的認知業務團隊自帶程式設計能力小處著手老闆的耐心如何找到落地場景找落地場景的思路:從最熟悉的領域入手儘量找能用語言描述的任務別求大而全。將任務拆解,先解決小任務、小場景讓 AI 學最厲害員工的能力,再讓 ta 輔助其他員工,實現降本增效思考:你的業務中,有那些問題可能 AI 能解決?工作機會在那裡?首先要知道:純大模型崗位幾乎是不存在的。可選:獨立開發者/創業有科技屬性的公司幾乎所有崗位傳統企業跑通 AI 工作流,找全端工程師定製化開發大模型是怎樣工作的?通俗原理其實,它只是根據上文,猜下一個詞(的機率)……OpenAI 的介面名就叫「completion」,也證明了其只會「生成」的本質。下面用程序演示「生成下一個字」。你可以自己修改 prompt 試試。還可以使用相同的 prompt 運行多次。from openai import OpenAIfrom dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())client = OpenAI()#prompt = "今天我很"  # 改我試試prompt = "下班了,今天我很"#prompt = "放學了,今天我很"#prompt = "AGI 實現了,今天我很"response = client.chat.completions.create(        model="gpt-4o-mini",        messages=[{"role": "user", "content": prompt}],        stream=True)# 處理並列印流式響應內容for chunk in response:print(f"\033[34m{chunk.choices[0].delta.content or''}\033[0m", end="")略深一點的通俗原理訓練和推理是大模型工作的兩個核心過程。用人類比,訓練就是學,推理就是用。學以致用,如是也。例如,有下面訓練資料:AI 正在改變我們的生活方式。AI 技術在醫療領域有廣泛應用。AI 可以提高企業的生產效率。AI 演算法能夠預測市場趨勢。AI 在自動駕駛汽車中扮演重要角色。AI 有助於個性化教育的發展。AI 機器人可以執行複雜的任務。AI 技術正在推動智能家居的普及。AI 在金融分析中發揮著關鍵作用。AI 技術正逐步應用於藝術創作。「AI」之後出現「技」的機率大於其它字。這些字之間的機率關係,就是大模型訓練時學到的。用不嚴密但通俗的語言描述原理:訓練:大模型閱讀了人類說過的所有的話。這就是「機器學習」訓練過程會把不同 token 同時出現的機率存入「神經網路」檔案。保存的資料就是「參數」,也叫「權重」推理:我們給推理程序若干 token,程序會載入大模型權重,算出機率最高的下一個 token 是什麼用生成的 token,再加上上文,就能繼續生成下一個 token。以此類推,生成更多文字Token 是什麼?可能是一個英文單詞,也可能是半個,三分之一個可能是一個中文詞,或者一個漢字,也可能是半個漢字,甚至三分之一個漢字大模型在開訓前,需要先訓練一個 tokenizer 模型。它能把所有的文字,切成 token1 個英文字元 ≈ 0.3 個 token。 1 個中文字元 ≈ 0.6 個 token。思考:AI 做對的事,怎麼用這個原理解釋?AI 的幻覺,一本正經地胡說八道,怎麼用這個原理解釋?再深一點點這套生成機制的核心叫「Transformer 架構」Transformer 是目前人工智慧領域最廣泛流行的架構,被用在各個領域機器學習 ≈ 機器自動找一個函數函數的參數找出函數的三步驟Transformer在做一個什麼事情?標量、向量、矩陣、張量的關係點——標量(scalar)線——向量(vector)面——矩陣(matrix)體——張量(tensor)Embedding是什麼?假設我們有一個句子:“The cat sat”Transformer核心:注意力機制注意力機制中的Q、K、V用好 AI 的核心心法OpenAI 首席科學家 Ilya Sutskever 說過:數字神經網路和人腦的生物神經網路,在數學原理上是一樣的。所以,我們要:把 AI 當人看把 AI 當人看把 AI 當人看凱文·凱利說了類似的觀點:「和人怎麼相處,就和 AI 怎麼相處。」用「當人看」來理解 AI用「當人看」來控制 AI用「當人看」來說服別人正確看待 AI 的不足當什麼人呢?學習時當老師工作時當助手休閒時當朋友這是貫徹整門課的心法,乃至我們與 AI 相伴的人生的心法。使用大模型的好習慣: - 使用大模型,不同的話題要開啟新的會話; - 明確指令和問題:儘量使問題或指令簡潔明確,避免多重含義或複雜結構,幫助模型更好理解和響應。 - 分步進行:如果問題複雜,可以將問題拆解成幾個小問題,逐步處理。這不僅能提高精準度,還能避免模型處理過於龐大的資訊。 - 上下文保留:在多個會話中,如果需要參考之前的對話,可以適當提及或複述關鍵點,避免丟失上下文。 - 分配優先順序:針對多個任務或問題,可以為每個話題分配優先順序,先處理最重要或最緊急的內容。 - 適應模型的限制:瞭解模型的處理能力和上下文長度限制,避免在同一會話中輸入過長的文字,尤其是如果涉及大量資訊時,分割問題會更有效。 - 反饋循環:在與模型互動時,如果模型的回答不完全或不符合預期,可以及時提供反饋和補充說明,讓模型逐步最佳化回答。 - 使用特定的格式或範本:如果是處理特定類型的任務或問題(如程式碼、數學問題、寫作任務),可以為輸入提供特定的格式或範本,以幫助模型更準確地理解任務需求。課堂實驗:你提個 AI 相關問題,我來用人類比大模型技術的短板對時效性內容的處理:由於大型模型通常在某個時間點之前的資料上訓練,它們可能無法處理最新的事件或資訊。例如,對於最近發生的新聞事件或新興的流行文化現象,模型可能缺乏理解,GPT4最近最新2023年4月。幻覺、不精準性和濫用風險:大型模型可能產生“幻覺”,即提供錯誤但看似合理的文字。這可能導致誤資訊的傳播,甚至被用於非法或不道德目的。例如,惡意使用者可能利用模型生成看似來自可信出版物的文章,作為假新聞傳播。泛化能力的侷限性:泛化能力指的是一個模型在處理新的、未見過的資料時的表現能力雖然大型模型在多個任務上表現出色,但在處理特定、罕見或新穎的情況時可能表現不佳難以解釋和透明性差:大型模型通常是“黑箱”,即使是模型的開發者也無法完全理解模型是如何配置自身以產生文字的。這導致瞭解釋或解釋AI/ML演算法的新框架的發展,但由於模型規模的增大,解釋性AI/ML方法變得日益複雜。大模型應用產品架構Agent 模式還太超前,Copilot 是當前主流。實現 Copilot 的主流架構是多 Agent 工作流模仿人做事,將業務拆成工作流(workflow、SOP、pipeline)每個 Agent 負責一個工作流節點大模型應用技術架構大模型應用技術特點:門檻低,天花板高。純 PromptPrompt 是操作大模型的唯一介面當人看:你說一句,ta 回一句,你再說一句,ta 再回一句……Agent + Function CallingAgent:AI 主動提要求Function Calling:AI 要求執行某個函數當人看:你問 ta「我明天去杭州出差,要帶傘嗎?」,ta 讓你先看天氣預報,你看了告訴 ta,ta 再告訴你要不要帶傘RAG(Retrieval-Augmented Generation)Embeddings:把文字轉換為更易於相似度計算的編碼。這種編碼叫向量向量資料庫:把向量存起來,方便尋找向量搜尋:根據輸入向量,找到最相似的向量當人看:考試答題時,到書上找相關內容,再結合題目組成答案,然後,就都忘了Fine-tuning(精調/微調)當人看:努力學習考試內容,長期記住,活學活用。如何選擇技術路線面對一個需求,如何開始,如何選擇技術方案?下面是個不嚴謹但常用思路。其中最容易被忽略的,是準備測試資料值得嘗試 Fine-tuning 的情況:提高模型輸出的穩定性使用者量大,降低推理成本的意義很大提高大模型的生成速度需要私有部署如何選擇基礎模型凡是問「那個大模型最好?」的,都是不懂的。不妨反問:「有無論做什麼,都表現最好的員工嗎?」劃重點:沒有最好的大模型,只有最適合的大模型基礎模型選型,合規和安全是首要考量因素。然後用測試資料,在可以選擇的模型裡,做測試,找出最合適的。為什麼不要依賴榜單?榜單已被應試教育污染。唯一還算值得相信的榜單:LMSYS Chatbot Arena Leaderboard榜單體現的是整體能力。放到一件具體事情上,排名低的可能反倒更好榜單體現不出成本差異本課程主打語言是 Python,因為:Python 和 AI 是天生一對Python 是最容易學習的程式語言安裝 OpenAI Python 庫在命令列執行:pip install --upgrade openai發一條消息體驗給大模型注入新知識的程式碼竟如此簡單。from openai import OpenAI# 載入 .env 檔案到環境變數from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())# 初始化 OpenAI 服務。會自動從環境變數載入 OPENAI_API_KEY 和 OPENAI_BASE_URLclient = OpenAI()# 消息messages = [    {"role": "system","content": "你是AI助手小瓜,是 AGIClass.ai 的助教。這門課每周二、四上課。"# 注入新知識    },    {"role": "user","content": "周末上課嗎?"# 問問題。可以改改試試    },]# 呼叫 GPT-4o-mini 模型chat_completion = client.chat.completions.create(    model="gpt-4o-mini",    messages=messages)# 輸出回覆print(chat_completion.choices[0].message.content)DeepSeek本地部署和應用ollamadocker 桌面版open-webui 版本:dyrnq/open-webui:latestDeepSeek本地部署實戰演示未來展望大模型競爭的過程繼續白熱化,第一將會不斷輪流切換多模態大模型將更加成熟,大模型的價格將不斷走低大模型應用開發才是未來最值的關注的方向,應用為王作業發掘自己身邊的大模型落地場景, 撰寫自己的大模型應用構想,要求給出需求說明和期望的效果。 (金信融息)